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一 种 结合 主题 模型 的 推荐 算法 


曹 占 伟 ， 胡 晓 鹏 
(西南 交通 大 学 信息 科学 与 技术 学 院 , 成 都 611756) 


摘 要 : 针对 传统 协同 过 滤 推 荐 算法 存在 的 冷 启动 、 数 据 稀 中 以 及 相似 度 度量 的 准确 性 问题 ,基于 LDA 主题 模型 对 文 
本 隐 式 主题 挖掘 的 有 效 性 和 KL 散 度 在 主题 分 布 相似 性 度量 的 准确 性 ， 提 出 了 结合 LDA 主题 模型 的 矩阵 分 解 推荐 算 
法 。 首 先 ， 利 用 改进 的 LDA 算法 输出 项 目 - 主 题 分 布 ， 并 用 困惑 度 作 为 主题 数 设置 的 修正 函数 ; 然后 分 别 基 于 余弦 相 
似 度 和 KL 散 度 计算 得 到 项 目 相 似 度 和 矩阵， 将 得 到 的 相似 度 和 矩阵 结合 原 评分 训练 集 输出 预 评分 ， 再 将 预 评分 填充 到 训 
练 集 ; 最 后 将 训练 集 输 入 ALS 短 阵 分 解 算 法 得 到 推荐 结果 。 通 过 MovieLens 数据 集 的 实验 结果 表明 , 该 算法 在 不 同 隐 
式 参 数 设 定 下 均 能 得 到 比 ALS 推荐 算法 以 及 更 小 的 预测 误差 ,并且 最 优 预 测 误差 小 于 传统 推荐 算法 。 该 实验 说 明了 通 
过 集成 LDA 主题 模型 的 ALS 算法 效果 要 优 于 其 他 推荐 算法 。 
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Recommendation algorithm combining theme model 


Cao Zhanwel, Hu Xiaopeng 
(1. School of Information Science & Technology, Southwest Jiaotong University, Chenedu Sichuan 611756, China) 


Abstract: In order to solve the problem of cold start and data sparsity for traditional collaborative filtering recommendation 
algorithm, and the accuracy of similarity measurement, this paper proposed a matrix decomposition recommendation algorithm 
based on the LDA theme model. Firstly, lt uses the improved LDA algorithm to output the project-topic distribution, using the 
perplexity as the modified function of the subject number; Secondly, lt calculate the similarity matrix of the project based on the 
cosine similarity and the KL divergence, combineing the obtained similarity matrix with the original scoring training set to 
output the pre score, and then fills the preliminary Score to the training set. Finally, lt Input the training set to ALS matrix 
decomposition algorithm to get the recommended results. The experimental results of the MovieLens data set show that the 
proposed algorithm can get a smaller MAE values than the traditional ALS algorithm under different 1mplicit parameter settings 
and it greater than traditional recommdation algorithm . The experiment shows that the results of the ALS algorithm are better 
than other algorithms by ntegrating the LDA theme model. 
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计算 机 应 用 研究 


对 高 阶 评分 矩阵 进行 降 维 ， 绥 解 了 数据 稀 疏 的 问题 ， 但 是 由 于 
计算 复杂 度 过 高 以 及 存在 冷 局 动 问题 ， 在 商业 领域 运用 并 不 广 


ll 
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随 看 互联 网 的 飞速 有 发展， 各 大 电 商 网 站 的 数据 呈现 井 咀 式 
的 增长 ， 为 满足 用 户 在 海量 信息 中 进行 有 效 选 择 的 需求 ， 推 荐 
系统 应 运 而 生 ， 而 推荐 算法 叫 义 是 推荐 系统 的 精髓 。 

主流 推荐 算法 主要 包括 协同 过 小 推荐 算法 、 基 于 内 容 的 推 
厦 、 关 联 规则 以 及 混合 推荐 方法 。 其 中 , 协同 过 滤 推 荐 算法 六 由 
于 具有 可 利用 用 户 行为 数据 和 基于 群体 智 意 的 优势 ， 在 当前 电 
商 系统 中 应 用 最 广泛 。Zhengzheng 等 人 DB] 提 出 了 一 种 奇异 值 分 
解 〈singular value decomposition,SVD ) 的 协同 过 滤 算 法 ， 该 法 
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沁 。Rahul 等 四 提出 利用 K-Means 算法 对 用 户 进行 聚 闫 以 减 小 
邻居 搜索 空间 ,该 法 考 上 处 到 了 用 户 对 项 目 属 性 的 偏好 , 推荐 效果 
优 于 传统 推荐 算法 , 但 是 依然 存在 冷 局 动 问题 。 Maryam 等 人 日 
针对 用 户 兴 趣 的 动态 性 ， 提 出 了 PIDFAR (potential interest 
discovery method based on fuzzy association rules) 方法 。 该 算法 
结合 LDA (latent dirichlet allocation )， 通 过 模糊 关联 规则 挖掘 
出 兴趣 -时 间 模 型 , 再 根据 关联 规则 和 主题 分 布 计算 项 目 相似 度 。 
该 算法 在 准确 率 上 优 于 传统 推荐 算法 并 缓解 了 冷 司 动 问题 ， 但 
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对 数据 稀 牙 问题 未 能 深入 讨论 。 

Zhou 等 人 [I 在 NetFlix 大 赛 中 首次 提出 了 基于 区 葵 最 小 二 
乘法 (Calternating least squares, ALS ) 的 矩阵 分 解 协同 过 滤 算 法 。 
该 方法 在 多 用 户 、 多 项 目 以 及 稀世 数据 的 情况 下 优 于 经 典 的 协 
同 过 小 算法 ， 并 在 大 赛 中 取得 优异 成 绩 ， 但 是 该 法 并 未 过 多 考 
虑 新 用 户 或 新 项 目 动态 加 入 的 因素 ， 依 然 存 在 冷 司 动 问题 。 

针对 上 述 不 足 , 本 文 提出 了 基于 主题 模型 的 ALS 和 窍 阵 分 解 
算法 LDA-IT-ALS (LDA insert to ALS )。 该 方法 运用 LDA 主 
题 模 型 将 项 目 属性 映射 成 输入 文档 , 通过 LDA 算法 输出 项 目 
之 间 的 主题 分 布 ， 进 而 得 到 相似 度 怎 阵 ， 然 后 通过 此 矩阵 与 原 
评分 矩阵 进行 联合 操作 得 到 了 预 评分 ， 再 将 预 评分 填充 到 源 定 阵 
中 , 最 后 通过 ALS 算法 得 到 推荐 结果 。ALS 算法 缓解 了 数据 确 
聋 问题， 本文 算 法 在 此 基础 上 结合 主题 模型 进行 数据 填充 绥 解 
了 冷 启动 问题 ， 并 进一步 缓解 了 数据 稀 玖 问题 ， 通 过 多 次 实验 
证 明了 本 文 方法 能 得 到 更 低 的 预测 误差 。 


1 ALS 和 矩阵 分 解 算法 与 LDA 主题 模型 


1.1 ALS 算法 

协同 过 滤 算 法 中 用 户 对 物品 的 评分 可 以 表示 成 一 个 评分 矩 
阵 RCm*n)， 其 中 元 素 Ri 表示 索引 号 为 1 (0<i<=m) 的 用 户 对 过 
引号 为 ] (0<j<=n) 的 物品 的 评分 ， 如 表 1 所 示 。 

在 推荐 系统 中 用 户 对 项 目的 评分 往往 低 于 5% 叶 ， 例 如 
MovieLens 数据 集 的 稀 玩 度 是 4.5%，Netflix 是 1.2% ， 
Bibsonomy 是 0.35%，Delicious 是 0.046%。 因 此 表 1 所 示 的 评 
分 定 阵 中 的 大 多 数 元 素 往 往 为 至 。 本 文 称 这 些 空 值 为 缺失 值 

(Missing Value )。 推 荐 系统 中 往往 需要 得 到 季 用 户 对 所 有 物品 
的 评分 ， 假设 Rz 为 缺失 值 ， 则 就 需要 通过 茶 些 方法 预测 U2 对 
了 的 评分 ， 即 “矩阵 补 全 填充 )”。 

ALS 矩阵 补 全 即 通 过 区 丛 最 小 二 乘法 5 来 填补 评分 矩 阵 。 
ALS 算法 的 核心 基于 以 下 假设 : 评分 矩阵 R 是 近似 低 秩 的 ， 也 
就 是 说 一 个 m*n 的 评分 和 矩阵 及 可 以 用 两 个 小 稠密 矩阵 XCmsk ) 
和 YCnsk) 的 乘积 来 近似 表示 ,如 表 2 和 表 3 所 示 , 其 中 R=<XYT， 
k<<m、n，Kk 为 隐 式 因子 。 

表 1 用 户 原 评分 矩阵 


11 1» 3 Lh 
Ui R11 R12 R13 Rn 
U> R21 R22 Ry3 Rn 
U3 R31 R32 R33 Ran 
Un Rnm1 Rn Rm3 。 Rmn 


表 2 稠密 矩阵 XX 


Fi 上 > Fs Fx 
Ui X11 X12 X13 Xi1k 
U; X21 X22 X23 Xk 
Us Xal X32 X33 Xk 
Un 和 Xml 和 nm2 Xm3 入 mk 


Fi 上 > 上 3 Fx 
I Yi11 Y12 Y13 ee Yik 
了 Y21 Y22 Y23 a Yok 
了 Ya31 Y32 Y33 on. Y3k 
I Ynl Yn2 Yn3 。。。 Ynk 


ALS 和 矩阵 分 解 的 目的 是 将 User 和 Item 映射 到 一 个 维度 为 
k〈k<<m、n) 的 隐 式 空间 ， 这 样 User 对 Item 的 评分 就 可 以 通 
过 隐 式 空间 矩阵 建 模 。ALS 算法 求解 矩阵 X 和 了 方法 如 算法 
加 


算法 1 ALS 矩阵 分 解 算 法 


站 | 
其 中 mi 代表 初始 评分 矩阵 中 用 户 半 对 项 目 j 的 评分 ，xi 为 X 
Cm*k) 的 第 i 行 的 一 个 列 回 量 , yj 为 Y Cnsk) 的 第 j 行 的 一 
个 列 回 量 ， 和 为 正则 化 参数 ， 

b) 随机 生成 一 个 X(0), 一 般 可 以 取 0 值 或 者 全 局 均值 ; 


a) 定义 损失 函数 C= | (5 一) + 
R 


(i,)e 


c) 固定 X(0), 即 将 X(0) 当 作 和 常量， 求解 Y(0);， 此 时 的 损失 
函数 为 C= > 已 -( 芭 )] » ra 2 :bp 
(i, eR 


d) 由 于 C 中 只 有 Vj 一 个 未 知 变量 ， 因 此 C 的 最 优化 问题 
转换 为 最 小 二 乘 问题 ， 即 用 最 小 二 乘法 求解 Yj 的 最 优 解 。 固 定 
j GOG=12n)， 则 C 的 导数 


(XX +AE)y,= Xr’ 。 


f) 令 M= XX +14E,M,= Xr; ， 可 得 y; = Mi M, ; 
g) 按 照 步 骤 c)~f) 依 次 计算 yl yz ,ya ,yw 从 而 得 到 Y(0); 
h) 固定 Y(0)， 来 求解 X()。 求 解 方法 同步 骤 g)， 得 到 


(YY +4E)x =77 


令 Mi=YY” +AE,M,=Yr 得 x=M7M,。， 

i) 依照 步骤 种 依次 计算 xl, x2, X3,…, xm 从 而 得 到 XX(1)。 

j) 循环 交 殖 执行 步骤 a)~i), 直 到 损失 函数 C 的 值 收 敛 或 者 
达到 设 定 的 返 代 次 数 , 这 样 就 得 到 了 最 优 解 对 应 的 矩阵 X,YY。 

由 算法 1 得 到 的 和 矩阵 X 和 YY 即 可 用 来 近似 求解 稠密 的 评 
分 窍 阵 R=XY- ，R' 中 相 较 于 及 多 出 的 评分 项 即 为 预 评 分 项 ， 
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可 据 此 对 用 户 做 推荐 。 
1.2 LDA 主题 模型 
1.2.1 主题 模型 概念 

主题 模型 (Topic Model) 是 用 来 在 大 量 文档 中 提取 抽象 主 
题 的 一 种 统计 模型 ， 它 可 以 根据 不 同文 档 中 出 现 相 同 或 者 不 同 
词汇 的 条 件 概率 确定 文档 的 隐 主 题 以 及 词汇 的 主题 归属 。 由 于 
同一 个 主题 可 能 会 包含 多 个 词汇 ， 因 此 文档 的 比较 不 再 是 简单 
的 词汇 统计 ， 而 是 文档 中 主题 出 现 的 概率 分 布 。 某 个 主题 中 包 
含 的 词汇 是 语义 相对 相似 或 者 相同 的 ， 因 此 主题 可 以 表示 为 整 
个 文档 集 词汇 表 中 词汇 的 多 元 分 布 函 数 , 词 汇 对 应 的 系数 越 大 ， 
那么 词汇 的 语义 越 接近 主题 的 语义 ;反之 ,和 主题 的 天 系 越 小 。 
归纳 起 来 ， 文 档 束 是 不 同 主题 对 词汇 集 不 同 词汇 分 布 的 分 布 。 

由 于 TF-IDF 方法 对 文本 主题 分 析 的 局 限 性 ， 先 后 出 现 了 
潜在 语义 分 析 模 型 (latent semantic analysis，LSA)、pLSA 模型 
以 及 马尔 科 夫 模型 等 ， 但 多 存在 计算 复杂 度 高 、 针 对 多 文档 的 
过 拟 合 以 及 扩展 性 不 好 等 问题 ， 但 它们 的 出 现 为 潜在 狄 利 元 雷 
分 布 LDA 主题 模型 的 出 现 葛 定 了 基础 0。 
1.2.2 LDA 算法 描述 

Blei 等 人 tl 在 2003 年 提出 的 潜在 狄 利 元 雷 分 布 (LDA) 是 
一 种 无 监督 的 生成 模型 。 该 方法 认为 每 篇 文档 的 生成 方式 如 下 : 
先 从 主题 集合 中 以 一 定 的 概率 抽取 主题 ， 然 后 再 从 这 个 主题 对 
应 的 词汇 集合 中 以 一 定 的 概率 抽取 当前 词汇 ， 循 环 执行 ， 直 到 
生成 整 篇 文档 。 

一 个 词汇 的 生成 概率 如 式 〈1) 所 示 。 


p(word | doc) = >》 p(word | topic) x p(topic | doc) (1) 


topic 


LDA 模型 的 生成 过 程 如 图 1 所 示 , 其 中 为 主题 个 数 ，M 
为 总 文档 数 ，Nm 是 第 m 个 文档 的 词汇 总 数 ，B 是 每 个 Topic 
下 词 的 多 项 分 布 的 Dirichlet 先 验 超 参数 , a 是 每 个 文档 下 Topic 
的 多 项 分 布 的 Dirichlet 先 验 超 参 数 ，Zmn 是 第 m 个 文档 中 第 n 
个 词汇 所 属 主题 ，wmn 是 第 mm 篇 文档 中 的 第 n 个 词汇 ， 两 个 隐 
变量 6m 和 kx 分别 表示 第 m 篇 文档 下 的 Topic 分 布 和 第 k 个 
Topic 下 word 的 分 布 ， 前 者 是 K 维 (k 为 Topic 总 数 ) 回 量 ， 后 者 
是 Y 维 回 量 ， 其 中 v 为 所 有 文档 集中 不 重复 词汇 的 总 数 。 

图 1 所 示 的 文档 生成 过 程 主要 分 解 为 两 个 物理 过 程 : 


a) 0 一 0, 一 zz ， 表 示 在 生成 第 m 篇 文档 的 时 候 ， 先 从 


M 个 doc-Topic 分 布 函数 中 抽取 分 布 函数 9, ,然后 从 多 个 Topic 
中 抽取 一 个 编号 为 zw 的 Topic 作为 第 n 个 词 的 主题 ; 


b) 8 一 o 一 wn|k=z,,， 表 示 在 K 个 Topic-word 分 布 


函数 中 选择 编号 为 K= zww 的 分 布 ， 然 后 在 分 布 中 随机 选择 
word 作为 第 m 篇 文档 的 第 n 个 词 wmn; 

在 给 定 超 参数 a 和 8 的 情况 下 , LDA 的 联合 共 罗 分 布 如 式 
(2) 所 示 ， 其 中 下 = (nC...nW) ,ng 表示 第 m 篇 文档 中 第 k 个 
主题 产生 词汇 的 个 数 , k 下 标 为 文档 编号 。n, = 0 no) ,ny 


表示 第 m 篇 文档 中 第 k 个 主题 产生 的 词汇 的 个 数 ，k 下 标 为 


Topic 编写 。 


p(w,z|0,b)= p(w|z,B)p(z|o) 


& AOL TD 可 AU +o (2) 
-II ll 一 ) 
以 上 是 LDA 定义 的 文档 生成 过 程 ， 而 实际 情况 是 LDA 生 
成 过 程 的 逆 过 程 。 已 知 文档 集 ， 需 要 对 联合 分 布 p(w,z) 进行 采 
样 。 采 样 的 方法 包括 变 分 -EM 算法 、Gibbs 抽样 法 和 最 大 似 然 
估计 法 。 本 文采 用 Gibbs 抽样 法 采样 主题 分 布 ， 有 关 细 节 可 查 
看 文献 [11]。 


图 1 LDA 图 模型 


2 “本文 改进 算法 


ALS 和 矩阵 分 解 推荐 算法 虽然 优 于 基于 邻 域 的 协同 过 滤 算 
法 ， 但 是 依然 存在 数据 稀 疏 以 及 冷 启 动 问题 ， 这 些 问 题 对 实际 
推荐 准确 率 有 很 大 影响 。 本 文 提 出 了 一 种 结合 LDA 主题 模型 
的 ALS 算法 ， 即 LDA-IT-ALS 算法 。 该 算法 利用 LDA 模型 对 
项 目 信 息 进行 建 模 ， 将 项 目 文件 中 的 每 一 行 ( 单 个 项 目的 描述 
言 息 ) 转换 为 主题 的 分 布 ， 不 仅 对 文档 进行 了 降 维 而 且 挖掘 出 
了 不 同 词 可 能 包含 的 相同 或 相近 的 主题 信息 。 在 这 些 信息 的 基 
础 上 进行 的 项 目 相似 度 的 计算 更 符合 人 的 第 规 思维 方式 。 主 题 
分 布 信息 经 过 本 文 方法 处 理 后 变 成 项 目 相 似 度 和 矩阵， 然后 结合 
原 评 分 和 矩阵 产生 预 评 分 填充 到 原 评 分 矩阵 中 形成 新 的 输入 集 输 
入 ALS 算法 。 
2.1 算法 过 程 描述 

本 文 所 用 到 的 数据 集 为 美国 GroupLens 提供 的 MovieLens 
数据 集 09。 算 法 主要 包括 项 目 文件 处 理 及 主题 分 布 的 计算 、 项 
目 相似 度 窍 阵 求解 、 预 评分 求解 及 填充 、ALS 和 矩阵 分 解 及 推荐 。 
2.1.1 文件 处 理 及 主体 分 部 计算 

本 步骤 用 到 了 u.Item 文件 以 及 ugenre 文件 。 文 件 u.Item 
每 行 描述 一 部 电影 , 不 同 的 描述 项 (电影 属性 ) 以 单 竖 线 分 割 |: 
第 1 项 为 索引 号 ， 第 2 项 为 电影 名 、 第 3 项 为 上 映 日 期 第 4 
项 为 空 ， 第 5 项 为 网 址 信息 ， 第 6~24 项 为 以 位 图 描述 的 电影 
类 型 《如 果 某 部 电影 属于 某 个 类 型 ， 则 对 应 的 位 图 为 1， 人 否则 
为 0)。 文 件 ugenre 描述 电影 类 型 及 索引 号 ， 每 行 描述 一 个 电 


影 类 型 ， 共 19 行 。 


图 2 项 目 文件 处 理 


1) 电影 描述 文件 预 处 理 

u.Item 文件 不 能 直接 作为 主题 分 布 计算 模块 的 输入 文件 。 
需要 将 uItem 的 位 图 信息 转换 为 电影 类 型 信息 ， 提 取 电 影 名 称 
及 上 映 日 期 ,并 过 滤 掉 干扰 信息 。 经 过 处 理 后 的 文件 为 u.word， 
文件 中 每 一 行 表 示 一 部 电影 的 文本 信息 , 例如 电影 Toy Story 的 
信息 为 (Toy Story Jan1995 Animation Children's Comedy )。 

2) 主题 分 布 计算 

将 u.word 转换 成 主题 分 布 文件 ， 用 到 了 LDA 算法 。 由 于 
Blei 提出 LDA 算法 的 初衷 是 利用 隐 式 主题 对 文本 进行 分 类 ， 
源码 在 读 文件 模块 读 入 对 象 是 以 一 个 项 目 对 应 一 个 文件 的 形式 
存在 ， 而 步骤 1) 中 得 到 的 u.word 文件 约 1600 行文 本 , 其 中 一 
行 代表 一 部 电影 。 为 满足 后 续 实 验 要 求 以 及 避免 大 量 文件 读 取 
时 造成 频 楷 的 磁盘 读 操作 而 降低 效率 ,本 文 对 Blei 的 读 模 块 进 
行 了 改进 ， 将 逐 文 件 处 理 变 为 了 逐 行 处 理 。 

在 完成 读 模 块 的 改写 后 , 需要 对 u.word 进行 联合 分 布 的 采 
样 以 及 主题 分 布 的 输出 , 具体 过 程 参考 1.2.2 市 。 为 提高 主题 分 
布 对 电影 的 区 分 效果 ， 本 文 引入 了 困惑 度 ! 站 ,表示 对 不 同 物 品 
间 的 区 分 能 力 , 困 惑 度 越 小 其 区 分 效果 越 好 。 困惑 度 由 式 (3) 所 
示 ， 其 中 W 为 语 料 集 ，wam 为 语 料 中 的 单词 ，Nn 为 单词 数量 。 

Dn p(w,) 


erplexity(W ) = expi$ 一 到 一 一 
perplexity(W ) | TN, 


(3) 


在 不 同 的 主题 数 前 提 下 得 到 多 个 具有 不 同 困惑 度 的 主题 分 
布 , 设置 最 小 困惑 度 对 应 主题 数 进 行 再 一 次 LDA 算法 , 得 到 的 
主题 分 布 矩 阵 如 图 3 所 示 ， 其 中 pi(1<i<m,1<j<n) 为 第 i 个 项 目 
的 第 j 个 主题 的 条 件 概 率 。 


图 3 主题 分 布 矩 阵 


2.1.2 项 目 相似 度 和 矩阵 求解 

在 主题 分 布 矩 阵 基 础 上 进行 项 目 相 似 度 窃 阵 求解 ， 主 要 过 
程 为 两 两 之 间 计 算 相 似 度 。 

1) 相似 度 选择 
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常见 的 相似 度 的 度量 方式 有 余弦 相似 度 、Jaccard、 欧 式 距 
离 等 ， 最 为 常用 的 为 余弦 相似 度 。 本 文 对 余弦 相似 度 和 文献 4 
提 到 的 KL 散 度 进行 对 比 。 

余 弱 相似 度 是 通过 计算 两 个 向 量 的 夹 角 余 弱 值 来 评估 它们 
的 相似 度 ， 计 算 公 式 如 式 (4) 所 示 ， 其 中 Ai 代表 向 量 A 的 在 
维度 1 上 的 值 ，Bi 代 表 向 量 B 的 在 维度 i 上 的 值 ，n 为 维度 。 

KL 散 度 又 叫 相 对 炉 或 者 互 炉 、 交 又 , 用 于 度量 两 个 随机 
变量 的 距离 ， 计 算 公 式 如 式 (5) 所 示 ， 其 中 p(X) 和 q(x) 是 关于 
变量 X 取 值 的 概率 分 布 函 数 。 由 于 KL 散 度 是 两 个 概率 分 布 了 
和 Q 的 非 对 称 性 的 度量， 一般 采用 (Dp|Iq)+D(gllp))/2 度量 两 个 
分 布 间 的 距离 。 在 此 需要 将 距离 转换 为 相似 度 ， 并 且 归 一 化 。 
用 常用 的 sigmoid 函数 进行 转换 ， 公 式 如 式 (6) 所 示 ， 其 中 了 
为 (D(pll)+D(qllp))/2。 


> (4 xB,) 
coSO = -全 一- 一天- 一 4 
(SAB ? 
or 
(plla) 2 .009 0 (5) 
1 
S(X) = 症 和 (0) 


2) 相似 度 后 处 理 
将 图 3 中 的 主题 分 布 罕 阵 分 别 根 据 1) 中 的 两 种 方式 逐 行 
两 两 计算 相似 度 ， 得 到 相似 度 矩 阵 。 为 方便 后 续 流 程 ， 生 成 的 
相似 度 和 矩阵 实际 上 以 三 元 组 形式 存在 , 形 如 (iteml, item2, sim )。 
后 续 求解 预 评分 根据 邻居 项 目 已 存在 的 评分 来 估计 空白 处 
的 评分 ,因此 相似 度 矩 阵 需 要 以 固定 阀 值 过 滤 掉 相似 度 小 的 项 。 
本 文 按照 文献 [16] 的 方法 取 立 值 为 0.9, 得 到 的 相似 度 和 矩阵 后 续 
称 为 高 相似 度 和 矩阵 。 
2.1.3 预 评分 求解 及 填充 
结合 原 评分 矩阵 以 及 高 相似 上 度 矩阵 预测 某 些 缺 失 评 分 项 ， 
原 评分 矩阵 文件 为 u.data， 其 评分 是 以 三 元 组 形式 存在 ， 形 如 
Cuser，item，rate)， 本 文 主要 根据 当前 项 目 和 邻居 项 目 间 的 相 
似 性 集合 和 用 户 对 项 目 结合 的 评分 预测 缺失 项 ， 主 要 过 程 如 算 
2 
算法 2 ” 预 评分 求解 
a) 定 义 preMarkMap ， 其 数据 结构 为 
Map<Integer, Map<Integer, Double>> 
b) 定 义 markMap 存储 评分 数据 ， 其 数据 结构 为 
Map<Integer, Map<Integer, Double>> 
0c) 逐 行 表 历 原 评分 文件 ，User 和 ItemMap 保存 在 markMap 
形 如 [ui1,[ G1,v11), 2,V12)]), 02,[ G1, v21),(i2,V22)])...] 
d) 定 义 IemSimMap， 数 据 结 构 为 
Map<Integer, Map<Integer, Double>> 
e) 逐 行 表 历 相 似 度 和 矩阵，Iteml 和 Item2List 保存 于 
ItemSimMap 中 ， 形 如 [G1,[G2,V12),G3,V13)]),(12,[ (13,V23),(14,V24)])...] 
下 通 历 markMap， 获 取 当 前 User 的 ItemMap， 授 历 每 个 
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ItemSimMap， 如 果 ItemMap 中 不 包含 当前 Item 值 ， 那 么 当前 
User 对 当前 Item 的 预 评分 可 通过 如 下 方式 求解 : 
(a) 通 过 当前 Item 获取 其 valuelMap 形 如 [(i2,V12),(i3,V13)...] 
(b) 通 过 当前 User 获取 其 value2Map 形 如 [Gi,v11),(i2,V12)...] 
(c) 设 置 局 部 变量 sum 和 n 
(d) 人 遍历 valuelMap ， 获 取 当 前 ItemTmp， 
valuel Tmp 


. 通 历 value2Map 查找 键 为 temTmp 的 项 , 值 为 value2Tmp 


当前 值 为 


.将 (valuelTmp*value2Tmp+valuelTmp/value2Tmp)/2 和 登 
加 到 sum，n 自 增 1 
(e) 将 当前 User，ItemTmp，sum/n 的 值 写 入 preMarkMap 
g) 循环 执行 步骤 e) f)， 最 后 输出 preMarkMap。 
算法 2 简要 的 描述 了 预 评分 求解 过 程 ， 将 输出 的 预 评分 填 
充 到 原 评 分 文件 即 可 作为 ALS 和 矩阵 分 解 算 法 的 训练 集 。 
2.1.4 答 阵 分 解 及 推荐 
在 得 到 训练 集 的 前 提 下 ， 利 用 1.1 市 的 算法 进行 求解 并 推 
存 。 在 1.1 节 提 到 了 隐 式 参数 ,本 算法 将 平均 绝对 误 关 MAE 
值 作为 隐 式 参数 的 修正 日 标 函 数 : MAE 越 小 证 明 推 荐 预测 效 来 
越 好 。MAE 定义 如 式 (7), 其 中 pi 为 预测 评分 , qi 为 真实 评分 ， 
N 为 测试 集 评分 数 。 
N 
详 | 流 二 泛 


MAE = 
N 


(7) 


通过 修正 MAE 得 到 的 最 优 模型 即 可 对 用 户 进行 推荐 ， 比 
如 对 用 户 Ui 的 预测 矩阵 如 表 3 所 示 ， 那 么 就 可 以 根据 预测 集 
合 优先 推荐 B 和 I 给 用 户 Ul。 


表 3 用 户 预 测评 分 矩阵 


Ui 3 3.5 4.6 有 S27 


3 ”实验 对 比 及 结果 分 析 


本 实验 使 用 的 数据 集 来 自 美国 GroupLens 研究 小 组 提供 的 
MovieLens 数据 集 。 数 据 集中 包括 943 个 用 户 描述 文件 ，1682 
个 电影 信息 描述 文件 ，10 万 个 评分 记录 。 本 文 从 数据 集中 抽取 
80% 作 为 训练 集 ， 利 用 LDAIT-ALS 算法 进行 推荐 ， 20% 的 测试 
集 检测 算法 的 效果 。 使 用 5 折 交 叉 平均 实验 结果 减少 误差 ， 采 
用 MAE 作为 评价 标准 ， 实 验方 法 如 第 2 节 所 示 。 本 文 算 法 由 
JAVA 实现 , 实验 平台 为 Windows7-64 位 双核 , IDE 为 Eclipse。 
3.1 与 ALS 算法 对 比 实验 
3.1.1 LDA 主题 数 设置 

为 了 能 保证 LDA 算法 的 处 理 效果 ， 首 先 需 要 对 主题 数 的 
设置 进行 调整 ， 以 困惑 度 作 为 主题 数 的 修正 参数 。 

首先 将 主题 数 设置 在 5~50， 步 长 为 5， 困 惑 度 与 主题 数 的 
关系 如 图 3 所 示 , topNum 代表 主题 数 , perplexity 代表 困惑 度 ， 
发 现在 topNum 为 5-10 之 间 perplexity 最 小 。 然 后 设置 topNum 
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在 1-10， 步 长 为 1 困惑 度 与 主题 数 的 关系 如 图 4 所 示 。 困 惑 
度 在 topNum 为 6 的 时 候 最 小 ， 因 此 本 文 后 续 实验 主题 数 固定 
为 6。 


不 同 主题 个 数 下 的 困惑 度 


25 30 35 40 45 50 
topNum 


图 3 困惑 度 与 主题 数 ( 步 长 为 5) 


不 同 主 题 个 数 下 的 困惑 度 


+ 5 6 7 
topNum 


图 4 困惑 度 与 主题 数 ( 步 长 为 1) 


3.1.2 与 ALS 算法 对 比 

为 验证 本 文 算法 的 有 效 性 ,在 不 同 隐 式 参数 设置 下 将 ALS 
算法 和 本 文 算 法 进行 对 比 。 另 外 ， 还 将 本 文 算 法 中 处 理 项 目 相 
似 度 的 方式 进行 纵 问 对 比 。 

首先 设 定 隐 式 参数 从 5~40， 步 长 为 5， 对 比 结果 如 图 5 所 
示 。 发 现在 5~10 的 MAE 值 最 小 , 然后 设 定 隐 式 参数 从 5~10， 
步 长 为 1 进行 对 比 。 结 果 如 图 6 所 示 ， 在 MAE 为 3 的 时 候 三 
种 算法 均 能 达到 最 小 误差 ， 并 有 旦 本 文 算法 的 MAE 值 小 于 ALS 
算法 的 MAE 值 。 


一 国 一 LDA-|T- 
ALS(cosine) 


一 一 LDA-IT-ALS(KL 
散 度 ) 


5 10 15 20 25 30 35 40 
隐 因 子 数 


图 5 隐 因 子 step=5 时 算法 对 比 
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图 6 隐 因 子 step=1 时 算法 对 比 


3.2 ”其 他 推荐 算法 比较 

为 了 进一步 证 明 本 文 算法 的 有 效 性 ， 择 取 文 献 [17] 提 出 的 
算法 以 及 基于 用 户 和 基于 物品 的 协同 过 滤 算 法 进行 比较 。 由 于 
后 三 种 算法 采用 的 是 邻居 用 户 或 者 邻近 项 目的 调 参 方式 ， 不 同 
于 本 文 ,所 以 采取 最 优 值 进行 比较 ,为 保证 实验 结果 的 有 效 性 ， 
采用 统一 数据 集 , 统一 实验 平台 以 及 统一 评价 标准 MAE, 将 各 
个 算法 调 参 后 的 最 优 值 作为 最 后 统计 结果 。 调 参 方法 分 别 参考 
本 文 3.1 市 以 及 文献 [17]， 最 后 得 到 的 结果 如 图 7 所 示 。 


0.7495 
9.7459 


| 0.7436 加 
| 0.7326 0.7331 
i ] 二 下 
a 人 有 
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图 7 推荐 算法 对 比 


3.3 ”实验 结果 分 析 

通过 实验 证 明 ， 本 文 算 法 平均 绝对 误差 在 设 定 不 同 隐 因 子 
的 情况 下 均 小 于 ALS 算法 ,同时 也 要 优 于 文献 上 的 算法 。 通 过 
图 6 可 以 发 现 ULR-ItemCF 算法 优 于 ItemCF 算法 和 ALS 算法 ， 
原因 在 于 ULR-ItemCF 算法 也 是 利用 了 项 目的 描述 信息 ， 绥 解 
了 冷 启动 问题 ， 这 也 进一步 证 明了 项 目 描述 信息 在 推荐 算法 中 
的 重要 性 。 同 时 ， 也 可 以 发 现 本 文 算法 LDA-IT-ALS 的 最 小 
MAE 从 为 0.7257, 效果 要 好 于 ULR-ItemCF 算法 ,原因 在 于 本 
文 算法 采用 的 主题 模型 生成 的 预 评分 正好 填充 了 ALS 算法 训 
练 集 所 缺 的 评分 项 , 绥 解 了 数据 稀 玩 性 并 且 解 决 了 冷 局 动 问题 
例如 ， 知 表 1 中 BbB 是 新 上 映 电 影 ， 那 么 R13~Rms 都 为 空 值 ， 如 
果 将 此 时 数据 集 作 为 训练 集 ， 推 荐 系统 无 法 对 用 户 进 行 个 性 化 
推荐 ， 也 即 出 现 了 冷 启动 问题 。 在 利用 本 文 方法 预测 空白 值 并 
填充 后 ， 再 根据 后 续 步 又 即 可 进行 正常 推荐 。 另 外 ， 在 实验 中 
对 项 目 相似 度 窍 阵 求解 方法 余 弱 相似 度 和 KL 散 度 进 行 对 比 ， 
结果 KL 散 度 实验 效果 优 于 余弦 相似 度 。 原 因 是 KL 散 度 本 身 
更 适合 计算 两 个 概率 分 布 之 间 的 距离 ， 而 余弦 相似 度 更 适用 于 
实际 空间 物理 角度 的 计算 。 
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下 的 推荐 算法 


4 ”结束 语 


本 文 提出 的 结合 LDA 主题 模型 的 ALS 推荐 算法 (LDA-IT- 
ee 
娠 处 理 成 主题 分 布 信息 ， 然 后 融入 到 评分 文件 中 ， 解 决 了 
ge 页 并 绥 解 了 数据 稀疏 问题 ， 使 推荐 准确 度 得 到 提高 。 
再 者 ， 本 文 对 LDA 原创 作者 的 源码 进行 了 改进 以 适应 本 实验 
的 处 理 流 程 ， 避 免 了 磁盘 频繁 读 取 的 问题 。 另 外 ， 在 项 目 相似 
度 计算 时 引入 了 KL 散 度 ， 提 升 了 相似 度 度量 准确 率 ， 减 小 了 
推荐 误差 ， 与 传统 推荐 算法 相 比 准确 度 有 所 提高 。 但 是 推荐 算 
法 依然 面临 许多 问题 ， 比 如 安全 性 、 实 时 性 问题 。 本 文 后 续 工 
作 将 着 重 于 将 LDA-IT-ALS 算法 并 行 化 , 实现 其 在 线 实时 处 理 。 
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